BOÎTE A OUTILS 3

La BAO2 a eu pour but d’étiqueter chaque fichier résultat. Il faut maintenant extraire les données en suivant des patrons morphosyntaxiques. Étant donné que les sorties de Cordial et de Treetagger ne sont pas les mêmes, les méthodes exposées vont être différentes.

Les patrons syntaxiques à extraire sont :

  • NOM PREP NOM
  • NOM ADJ
  • NOM NOM

La première méthode va nous permettre d’extraire les données des fichiers créés par Cordial, la deuxième méthode va faire de même avec les sorties de Treetagger, et enfin la dernière méthode va faire appel à une feuille de style xsl et à une requête XPATH pour extraire les patrons à partie de la sortie Treetagger.

Méthode 1

Ce programme écrit en Perl utilise des listes pour extraire les patrons voulus. Après quelques modifications,le programme prend en entrée le nom du répertoire contenant les fichiers à traiter (fichiers textes étiquetés par Coridal), un répertoire en sortie et un fichier txt contenant les patrons syntaxiques à extraire. Le programme produit en sortie une liste contenant les patrons pour chaque fichier du dossier fourni.

Le script se trouve ci-dessous :


Exemple de sortie:

Cliquez ici pour visualiser l'exemple de la rubrique ALAUNE



Méthode 2

La deuxième méthode consiste à utiliser la méthode XML ::XPATH réalisée par R. Belmouhoub sur des fichiers XML. Le module XML::XPATH nous permettra d’intégrer et d’exécuter des requêtes XPATH avec notre programme. Le programme prend en entrée le fichier XML à traiter et un fichier de patrons.

Le programme comporte deux étapes principales :

La Construction du chemin Xpath:

La construction du chemin XPATH, est réalisée par la routine de construction des chemins XPath 'construit_XPath'. Cette procédure prend un patron comme argument.

L'Extraction des patrons:

Une fois le chemin construit, celui-ci est récupéré par la procédure d'extraction des motifs '&extract_pattern'.

Les sorties pour chaque rubrique:

Exemple de sortie:

CINEMA.xml-extract-NOM_ADJ.txt

Cliquez ici pour visualiser l'exemple de la rubrique CINEMA


Méthode 3

La dernière méthode pour cette BAO est l’utilisation d’une feuille XSL qui va s’appliqué à notre fichier de sortie Treetagger au format XML, avec une requête XPATH pour aller chercher les patrons qui nous intéressent. La feuille de styles montrée ici transforme la sortie XML en format HTML, avec trois tableaux, chaque tableau correspondant à un des trois patrons syntaxiques décrits en haut de page.Voici l'entête du tableau:

Les trois tableaux se réalisent indépendamment les uns des autres, avec un appel à <xsl:apply-templates. à l'intérieur de chaque tableau. Les prédicats sur 'element' changent selon le patron syntaxique souhaité. Voici les chemins pour appliquer les styles des trois patrons:

Pour spécifier des styles différents pour chaque patron, il faut aussi répéter ce chemin dans le <template match. Voici les styles spécifiques appliqués pour les trois patrons:

Voici quelques exemples de sortie:

Cliquez ici pour visualiser la sortie de la rubrique ALAUNE


Cliquez ici pour visualiser la sortie de la rubrique ECONOMIE

Téléchargements:


Pour la BAO4, rendez-vous ICI !